物体|尺度_对于ssd对小目标检测效果的思考

作者：小小的dream | 来源：互联网 | 2023-09-05 17:53

对于ssd模型对于小目标检测效果不好的问题，我认为可以结合.prototxt文件进行分析，以conv4_3_norm

对于ssd模型对于小目标检测效果不好的问题&＃xff0c;我认为可以结合.prototxt文件进行分析&＃xff0c;以conv4_3_norm_mbox_priorbox为例&＃xff1a;

prior_box_param min_size: 30.0 max_size: 60.0 aspect_ratio: 2 flip: true clip: false variance: 0.1 variance: 0.1 variance: 0.2 variance: 0.2 step: 8 offset: 0.5

其中min_size比较明确为30pixel&＃xff0c;若以IOU 0.5为例&＃xff0c;则原物体大小至少为21.21pixel&＃xff0c;才能与原物体有0.5以上的IOU。也因此小于21pixel的物体&＃xff0c;ssd无法检测。因为没有办法生成anchor。针对这个问题其实可以通过min_size与step的方式进行解决。

但仅生成anchor还不够&＃xff0c;若要检测小物体&＃xff0c;既需要一张足够大的featuremap来提供更加精细的特征和做更加密集的采样&＃xff0c;同时也需要足够的semantic meaning来与背景区分开。当前conv4_3_norm_mbox_priorbox一方面featuremap不够大&＃xff0c;特征信息不够&＃xff0c;另一方面conv4_3_norm_mbox_priorbox属于比较靠近输入的卷积层&＃xff0c;semantic信息同时不够。以上两方面的原因都造成了conv4_3_norm_mbox_priorbox无法用于检测小目标。

但对于conv9_2_mbox_priorbox层&＃xff1a;

prior_box_param min_size: 264.0 max_size: 315.0 aspect_ratio: 2 flip: true clip: false variance: 0.1 variance: 0.1 variance: 0.2 variance: 0.2 step: 300 offset: 0.5

最小的框是264pixel&＃xff0c;同理最小物体的尺寸是186.67pixel&＃xff0c;conv9_2_mbox_priorbox包含语义信息较多&＃xff0c;但可以检测的最小物体过大&＃xff0c;也造成了conv9_2_mbox_priorbox无法用于检测小目标。

针对既要较大的featuremap&＃xff0c;又要较为丰富的语义信息的问题&＃xff0c;FPN、retinanet、yolov3等采用的方法比较一致&＃xff0c;使用较小的featuremap通过upsample操作与较大的featuremap concat在一起&＃xff0c;即保留了深层featuremap的语义信息&＃xff0c;又利用了浅层featuremap较为精细的特征。yolov2同样使用了多尺度特征融合。

除了多尺度特征融合之外&＃xff0c;还可以采用的另一个思路是detnet。使用专门的目标检测主干网络&＃xff0c;代替当前针对分类任务的主干网络。针对分类任务的主干网络有以下问题&＃xff1a;当前主干网络基于较大的降采样因子产生较大的感受野&＃xff0c;较大的感受野对分类任务有利。&＃xff08;Traditional backbone produces higher receptive field based on large downsampling factor, which is beneficial to the visual classification&＃xff09;然而以上做法造成了空间分辨率的让步&＃xff0c;这造成了大目标的定位不准确与小目标的识别困难&＃xff08;However, the spatial resolution is compromised which will fail to accurately localize the large objects and recognize the small objects.&＃xff09;

其核心思想是空洞瓶颈结构&＃xff08;dilated bottleneck structure&＃xff09;&＃xff0c;总结起来就是一句话&＃xff1a;DetNet不仅保持较高分辨率的特征图&＃xff0c;同时具有较大的感受野。&＃xff08;DetNet not only maintains high resolution feature maps but also keeps large receptive field&＃xff09;

论文中认为FPN在较深的层次生成并预测较大的物体&＃xff0c;上述物体的边界可能会过于模糊以致于不能准确的回归。&＃xff08;large object is generated and predicted within deeper layers, the boundary of these object may be too blurry to get an accurate regression&＃xff09;。较大的步长的另一个缺点是小物体的丢失。&＃xff08;Another drawback of large stride is the missing of small objects.&＃xff09;

PS&＃xff1a;FPN使用P2-P6层&＃xff0c;retinanet使用P3-P7层。在retinanet中anchor与gt的IOU大于0.5为正样本&＃xff0c;小于0.4为背景&＃xff0c;大于0.4小于0.5的在训练过程中忽略。FPN仍然使用与faster-rcnn相同的原则&＃xff0c;与某个gt有最高的IOU&＃xff0c;或者与任何gt的IOU大于0.7&＃xff0c;则认为是正样本&＃xff0c;与任何gt IOU都小于0.3&＃xff0c;则认为是负样本。

最后回到核心内容上来&＃xff0c;detnet的实现就是将resnet中原来的3*3卷积换成3*3&＃xff0c;dilate为2的空洞卷积&＃xff0c;网络结构见下图&＃xff1a;

参考&＃xff1a;

https://www.zhihu.com/question/49455386

https://github.com/eric612/MobileNet-SSD-windows/blob/master/models/VGGNet/VOC0712/SSD_300x300/train.prototxt

以上是关于对于ssd对小目标检测效果的思考的主要内容，如果未能解决你的问题，请参考以下文章

基于改进SSD的车辆小目标检测方法

one-shot 检测算法YOLOSSD

详细解读目标检测经典算法-SSD

检测算法简介及其原理——fast R-CNN，faster R-CNN，YOLO，SSD，YOLOv2，YOLOv3

Single Shot Multibox Detection (SSD)实战（上）

R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3

推荐阅读

case
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
int
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
python
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
config
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
数组
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
int
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
int
JavaScript面部交换代码及实现方法

本文详细介绍了如何使用JavaScript实现面部交换功能，包括基本原理和具体实现步骤。 ... [详细]

蜡笔小新 2024-11-14 15:54:06
export
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
config
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
spring
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
spring
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
audio
深入解析Android Audio系统中的mpAudioPolicy->get_input

在分析Android的Audio系统时，我们对mpAudioPolicy->get_input进行了详细探讨，发现其背后涉及的机制相当复杂。本文将详细介绍这一过程及其背后的实现细节。 ... [详细]

蜡笔小新 2024-11-12 18:52:04
foreach
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
case
Delphi 7下最小化到系统托盘（主要是WM_TRAYMSG和WM_SYSCOMMAND消息）

在Delphi7下要制作系统托盘，只能制作一个比较简单的系统托盘，因为ShellAPI文件定义的TNotifyIconData结构体是比较早的版本。定义如下：1234 ... [详细]

蜡笔小新 2024-11-12 12:32:15
uri
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21

小小的dream

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章